在计算机视觉的许多领域都探索了对对抗性扰动的鲁棒性。这种鲁棒性在基于视觉的强化学习中尤其重要,因为自主代理在现实世界中的行为可能是安全的或影响力的。我们研究基于视力的强化学习者对基于梯度的对抗攻击并评估潜在防御的敏感性。我们观察到,CNN体系结构中包含的瓶颈注意模块(BAM)可以充当提高对抗性攻击的鲁棒性的潜在工具。我们展示了如何使用学习的注意图来通过将空间激活限制为显着区域来恢复卷积层的激活。在许多RL环境中,BAM增强体系结构在推理过程中表现出更大的鲁棒性。最后,我们讨论潜在的未来研究方向。
translated by 谷歌翻译
神经语言模型被广泛使用;但是,它们的模型参数通常需要适应时间和资源消耗的应用程序的特定域和任务。因此,最近引入了适配器作为模型适应的轻巧替代方案。它们由一组特定于任务的参数组成,这些参数缩短了训练时间和简单的参数组成。适配器训练和组成的简单性带来了新的挑战,例如保持适配器属性的概述,并有效地比较其生产的嵌入空间。为了帮助开发人员克服这些挑战,我们提供了双重贡献。首先,在与NLP研究人员的密切合作中,我们对支持适配器评估的方法进行了需求分析,并检测到了对固有的(即基于相似性的嵌入相似性)和外部(即基于预测的)解释方法的需求。 。其次,在收集的要求的激励下,我们设计了一个灵活的视觉分析工作空间,可以比较适配器属性。在本文中,我们讨论了几次设计迭代和替代方案,以进行交互式,比较视觉解释方法。我们的比较可视化表明,适应性嵌入媒介的差异和对​​各种人性化概念(例如,人的名字,人类素质)的预测结果。我们通过案例研究评估我们的工作空间,并表明,例如,根据Context-0(deNsTextualized)嵌入对语言偏见任务进行培训的适配器,引入了一种新型的偏见,其中单词(甚至与性别独立的单词)一样与女性代词更类似于女性。我们证明这些是上下文0嵌入的工件。
translated by 谷歌翻译
语言模型的学习和表示语言与人类不同。他们学习形式而不是含义。因此,为了评估语言模型解释性的成功,我们需要考虑其与用户语言心理模型的差异的影响。在该立场论文中,我们认为,为了避免有害合理化并实现对语言模型的真实理解,解释过程必须满足三个主要条件:(1)解释必须真实地代表模型行为,即具有很高的忠诚; (2)解释必须完整,因为缺少信息会扭曲事实; (3)解释必须考虑到用户的心理模型,逐步验证一个人的知识并适应他们的理解。我们介绍了一个决策树模型,以展示当前解释未能达到目标的潜在原因。我们进一步强调了以人为本的设计从多个角度解释该模型的必要性,从而逐步将解释调整为不断变化的用户期望。
translated by 谷歌翻译
在安全 - 关键系统(例如临床诊断)中,可解释的AI(XAI)是必不可少的,这是由于致命决定的高风险。但是,目前,XAI类似于一系列宽松的方法,而不是定义明确的过程。在这项工作中,我们详细介绍了XAI最大的亚组,可解释的机器学习(IML)和经典统计数据之间的概念相似性。基于这些相似之处,我们沿着统计过程的路线提出了IML的形式化。采用这种统计视图使我们能够将机器学习模型和IML方法解释为复杂的统计工具。基于这种解释,我们推断出三个关键问题,我们认为这对于在安全至关重要的环境中的成功和采用至关重要。通过提出这些问题,我们进一步旨在激发有关IML与古典统计数据的区别以及我们对该领域未来意味着什么的讨论。
translated by 谷歌翻译
加强学习(RL)通常假设访问明确指定的奖励功能,许多实际应用无法提供。取而代之的是,最近,更多的工作探索了从与人互动中学习该做什么。到目前为止,这些方法中的大多数方法都模仿人类(卑鄙的)理性,尤其是提供无偏见的反馈。我们认为这些模型过于简单,RL研究人员需要开发更现实的人类模型来设计和评估其算法。特别是,我们认为人类模型必须是个人,背景和动态的。本文呼吁从不同学科的研究中进行研究,以解决有关人类如何向AI提供反馈以及我们如何构建更强大的人类RL系统的关键问题。
translated by 谷歌翻译